La primauté logique de la validation
L'inférence statistique est intrinsèquement conditionnelle. Toute conclusion que nous tirons sur un paramètre $\theta$ est strictement conditionnée par l'hypothèse selon laquelle les données observées $s$ ont été générées par une distribution appartenant à notre modèle hypothétique $\mathcal{M} = \{P_\theta : \theta \in \Theta\}$.
Estimation : Suppose que $P_{true} \in \mathcal{M}$ et cherche le « meilleur » $\theta$ (par exemple, le MLE $\hat{\theta}$). Elle opère à l'intérieur du modèle.
Contrôle du modèle : Relâche l'hypothèse que le modèle est vrai. Elle se demande si n'importe quel $\theta \in \Theta$ peut expliquer les motifs présents dans les données. Elle opère sur du modèle.
La crise de pertinence (piège)
Si la distribution réelle qui a généré les données se trouve en dehors du modèle statistique $\mathcal{M}$, alors $\theta$ perd son sens scientifique. Nous tombons dans un piège statistique: la pertinence de toute inférence ultérieure devient douteuse. Nous calculons essentiellement les propriétés d'une fiction mathématique plutôt que d'une réalité physique.
Exemple 9.1.1 : Le modèle normal de localisation
Considérons le cas le plus simple où nous supposons $X_i \sim N(\theta, 1)$.
Nous calculons la moyenne de l'échantillon $\bar{x}$. Sous le modèle normal, $\bar{x}$ est l'estimation optimale du « centre » des données.
Supposons que les données contiennent effectivement des valeurs extrêmes ou suivent une distribution à queues lourdes distribution de Cauchy. Bien que nous puissions toujours calculer mécaniquement $\bar{x}$, il ne représente plus le centre de la distribution de manière significative. Nos intervalles de confiance seront dangereusement étroits, conduisant à une certitude fausse car le modèle normal était invalide.